In this paper, we introduce a novel network that generates semantic, instance, and part segmentation using a shared encoder and effectively fuses them to achieve panoptic-part segmentation. Unifying these three segmentation problems allows for mutually improved and consistent representation learning. To fuse the predictions of all three heads efficiently, we introduce a parameter-free joint fusion module that dynamically balances the logits and fuses them to create panoptic-part segmentation. Our method is evaluated on the Cityscapes Panoptic Parts (CPP) and Pascal Panoptic Parts (PPP) datasets. For CPP, the PartPQ of our proposed model with joint fusion surpasses the previous state-of-the-art by 1.6 and 4.7 percentage points for all areas and segments with parts, respectively. On PPP, our joint fusion outperforms a model using the previous top-down merging strategy by 3.3 percentage points in PartPQ and 10.5 percentage points in PartPQ for partitionable classes.
translated by 谷歌翻译
Recent works have shown that unstructured text (documents) from online sources can serve as useful auxiliary information for zero-shot image classification. However, these methods require access to a high-quality source like Wikipedia and are limited to a single source of information. Large Language Models (LLM) trained on web-scale text show impressive abilities to repurpose their learned knowledge for a multitude of tasks. In this work, we provide a novel perspective on using an LLM to provide text supervision for a zero-shot image classification model. The LLM is provided with a few text descriptions from different annotators as examples. The LLM is conditioned on these examples to generate multiple text descriptions for each class(referred to as views). Our proposed model, I2MVFormer, learns multi-view semantic embeddings for zero-shot image classification with these class views. We show that each text view of a class provides complementary information allowing a model to learn a highly discriminative class embedding. Moreover, we show that I2MVFormer is better at consuming the multi-view text supervision from LLM compared to baseline models. I2MVFormer establishes a new state-of-the-art on three public benchmark datasets for zero-shot image classification with unsupervised semantic embeddings.
translated by 谷歌翻译
Object permanence is the concept that objects do not suddenly disappear in the physical world. Humans understand this concept at young ages and know that another person is still there, even though it is temporarily occluded. Neural networks currently often struggle with this challenge. Thus, we introduce explicit object permanence into two stage detection approaches drawing inspiration from particle filters. At the core, our detector uses the predictions of previous frames as additional proposals for the current one at inference time. Experiments confirm the feedback loop improving detection performance by a up to 10.3 mAP with little computational overhead. Our approach is suited to extend two-stage detectors for stabilized and reliable detections even under heavy occlusion. Additionally, the ability to apply our method without retraining an existing model promises wide application in real-world tasks.
translated by 谷歌翻译
本文介绍了一种新颖的体系结构,用于同时估算高度准确的光流和刚性场景转换,以实现困难的场景,在这种情况下,亮度假设因强烈的阴影变化而违反了亮度假设。如果是旋转物体或移动的光源(例如在黑暗中驾驶汽车遇到的光源),场景的外观通常从一个视图到下一个视图都发生了很大变化。不幸的是,用于计算光学流或姿势的标准方法是基于这样的期望,即场景中特征在视图之间保持恒定。在调查的情况下,这些方法可能经常失败。提出的方法通过组合图像,顶点和正常数据来融合纹理和几何信息,以计算照明不变的光流。通过使用粗到最新的策略,可以学习全球锚定的光流,从而减少了基于伪造的伪相应的影响。基于学习的光学流,提出了第二个体系结构,该体系结构可预测扭曲的顶点和正常地图的稳健刚性变换。特别注意具有强烈旋转的情况,这通常会导致这种阴影变化。因此,提出了一个三步程序,该程序可以利用正态和顶点之间的相关性。该方法已在新创建的数据集上进行了评估,该数据集包含具有强烈旋转和阴影效果的合成数据和真实数据。该数据代表了3D重建中的典型用例,其中该对象通常在部分重建之间以很大的步骤旋转。此外,我们将该方法应用于众所周知的Kitti Odometry数据集。即使由于实现了Brighness的假设,这不是该方法的典型用例,因此,还建立了对标准情况和与其他方法的关系的适用性。
translated by 谷歌翻译
本文展示了一个视觉大满贯系统,该系统利用点和线云,同时使用嵌入式零件平面重建(PPR)模块,共同提供结构图。为了与跟踪并行构建一致的尺度地图,例如使用单个摄像机会带来挑战,以歧义性歧义重建几何原始图,并进一步引入了捆绑调整(BA)的图形优化的难度。我们通过在重建的线和飞机上提出几个运行时优化来解决这些问题。然后根据单眼框架的设计将系统用深度和立体声传感器扩展。结果表明,我们提出的SLAM紧密结合了语义功能,以增强前端跟踪和后端优化。我们在各种数据集上详尽地评估了系统,并为社区开放代码(https://github.com/peterfws/structure-plp-slam)。
translated by 谷歌翻译
天然用户界面正在上升。用于增强,虚拟和混合现实头架显示器的制造商正在越来越多地将新传感器整合到消费级产品中,从而允许没有其他硬件的手势识别。这为虚拟环境中的裸互动提供了新的可能性。这项工作提出了一种手势创作工具,用于特定对象的抓取手势,允许在现实世界中抓取虚拟对象。提出的解决方案使用模板匹配以进行手势识别,并且不需要技术知识来设计和创建定制的手势。在用户研究中,将提出的方法与捏合手势和控制虚拟对象的控制器进行了比较。根据准确性,任务完成时间,可用性和自然性比较不同的抓握技术。该研究表明,用所提出的方法创建的手势被用户视为比其他方法更自然的输入方式。
translated by 谷歌翻译
近年来,深度神经网络表明它们在解决包括场景流预测在内的许多计算机视觉任务方面具有超越能力。但是,大多数进步取决于每个像素地面真相注释的大量致密性,这对于现实生活中的情况很难获得。因此,通常依靠合成数据进行监督,从而导致培训和测试数据之间的表示差距。即使有大量未标记的现实世界数据可用,但对于场景流预测的自我监督方法还是很大的缺乏。因此,我们探讨了基于人口普查转换和遮挡意识到的双向位移的自我监督损失的扩展,以解决场景流动预测问题。关于KITTI场景基准,我们的方法优于相同网络的相应监督预培训,并显示出改善的概括功能,同时达到更快的收敛速度。
translated by 谷歌翻译
虚拟现实(VR)中的运动是VR应用的重要组成部分。许多科学家正在以不同的变化来丰富社区,从而在VR中进行运动。一些最有前途的方法是基于手势的,不需要其他手持硬件。最近的工作主要集中在不同的运动技术的用户偏好和性能上。这忽略了在探索新方法时用户经历的学习效果。在这项工作中,可以调查用户是否可以迅速适应VR中基于手势的运动系统。参与者实施和测试了四种不同的运动技术。本文的目的是双重的:首先,它旨在鼓励研究人员考虑他们的研究中的学习效果。其次,本研究旨在洞悉用户在基于手势的系统中的学习效果。
translated by 谷歌翻译
利用6DOF(自由度)对象的姿势信息及其组件对于对象状态检测任务至关重要。我们展示了IKEA对象状态数据集,该数据集包含宜家家具3D模型,装配过程的RGBD视频,家具部件的6dof姿势及其边界盒。建议的数据集将在https://github.com/mxllmx/ikeaObjectstateTateDataSet上使用。
translated by 谷歌翻译
本文提出了一个语义平面SLAM系统,该系统使用实例平面分割网络中的提示来改善姿势估计和映射。尽管主流方法使用RGB-D传感器,但使用具有这样一个系统的单眼相机仍然面临着诸如强大的数据关联和精确的几何模型拟合等挑战。在大多数现有工作中,几何模型估计问题(例如同型估计和零件平面重建(PPR))通常通过标准(贪婪)RANSAC分别和顺序解决。但是,在没有有关场景的信息(即比例尺)的情况下,很难设置inlier-of-lefier-lefier threshold。在这项工作中,我们重新审视了这些问题,并认为可以通过最小化利用空间连贯性的能量函数来解决两个上述几何模型(同型/3D平面),即通过绘图剪切优化,这也可以解决实际问题,从而解决了实际问题。训练有素的CNN的输出不准确。此外,我们根据我们的实验提出了一种自适应参数设置策略,并报告对各种开源数据集进行全面评估。
translated by 谷歌翻译